查看原文
其他

网络爬虫之Splash负载均衡配置

2017-09-24 崔庆才 Python爱好者社区

崔庆才,Python技术控,爬虫博文访问量已过百万。喜欢钻研,热爱生活,乐于分享。

个人博客:静觅 | http://cuiqingcai.com/

如果我们用 Splash 来做 JavaScript 动态渲染的页面的抓取的话,如果爬取的量非常大,任务非常多,如果我们用一个 Splash 服务来处理的话未免压力太大了,所以我们可以考虑搭建一个负载均衡器来把压力分散到各个服务器上,这样相当于多台机器多个服务共同参与任务的处理,可以减小单个 Splash 服务的压力。

1. 配置Splash服务

要搭建 Splash 负载均衡首先我们需要有多个 Splash 服务,假如在这里我在四台远程主机的 8050 端口上都开启了 Splash 服务,它们的服务地址分别为:41.159.27.223:8050、41.159.27.221:8050、41.159.27.9:8050、41.159.117.119:8050,四个服务完全一致,都是通过 Docker 的 Splash 镜像开启的,访问任何一个服务都可以使用 Splash 服务。

2. 配置负载均衡

接下来我们可以选用任意一台带有公网 IP 的主机来配置负载均衡,首先需要在这台主机上装好 Nginx,然后修改 Nginx 的配置文件 nginx.conf,添加如下内容:

http {
   upstream splash {
       least_conn;
       server 41.159.27.223:8050;
       server 41.159.27.221:8050;
       server 41.159.27.9:8050;
       server 41.159.117.119:8050;
   }
   server {
       listen 8050;
       location / {
           proxy_pass http://splash;
       }
   }
}

这样我们通过 upstream 字段定义了一个名字叫做 splash 的服务集群配置,least_conn 代表最少链接负载均衡,它适合处理请求处理时间长短不一造成服务器过载的情况。

或者我们也可以不指定配置,配置如下:

upstream splash {
   server 41.159.27.223:8050;
   server 41.159.27.221:8050;
   server 41.159.27.9:8050;
   server 41.159.117.119:8050;
}

这样默认以轮询策略实现负载均衡,每个服务器的压力相同,此策略适合服务器配置相当,无状态且短平快的服务使用。

另外我们还可以指定权重,配置如下:

upstream splash {
   server 41.159.27.223:8050 weight=4;
   server 41.159.27.221:8050 weight=2;
   server 41.159.27.9:8050 weight=2;
   server 41.159.117.119:8050 weight=1;
}

我们通过 weight 指定了各个服务的权重,权重越高分配到处理的请求越多,假如不同的服务器配置差别比较大的话,就可以使用此种配置。

最后还有一种 IP 哈希负载均衡,配置如下:

upstream splash {
   ip_hash;
   server 41.159.27.223:8050;
   server 41.159.27.221:8050;
   server 41.159.27.9:8050;
   server 41.159.117.119:8050;
}

服务器根据请求客户端的 IP 地址进行哈希计算,确保使用同一个服务器响应请求,这种策略适合有状态的服务,如用户登录后访问某个页面的情形。不过对于 Splash 来说不需要。

我们可以根据不同的情形选用不同的配置,配置完成后重启一下 Nginx 服务:

sudo nginx -s reload

这样直接访问 Nginx 所在服务器的 8050 端口即可实现负载均衡了。

3. 配置认证

现在 Splash 是公开访问的,如果我们不想让其被公开访问还可以配置认证,仍然借助于 Nginx 即可,可以在 server 的 location 字段中添加一个 auth_basic 和 auth_basic_user_file 字段,配置如下:

http {
   upstream splash {
       least_conn;
       server 41.159.27.223:8050;
       server 41.159.27.221:8050;
       server 41.159.27.9:8050;
       server 41.159.117.119:8050;
   }
   server {
       listen 8050;
       location / {
           proxy_pass http://splash;
           auth_basic "Restricted";
           auth_basic_user_file /etc/nginx/conf.d/.htpasswd;
       }
   }
}

在这里使用的用户名密码配置放置在 /etc/nginx/conf.d 目录,我们需要使用 htpasswd 命令创建,例如创建一个用户名为 admin 的文件,命令如下:

htpasswd -c .htpasswd admin

接下就会提示我们输入密码,输入两次之后,就会生成密码文件,查看一下内容:

cat .htpasswd
admin:5ZBxQr0rCqwbc

配置完成之后我们重启一下 Nginx 服务,运行如下命令:

sudo nginx -s reload

这样访问认证就成功配置好了。

4. 测试

最后我们可以用代码来测试一下负载均衡的配置,看看到底是不是每次请求会切换IP,利用 http://httpbin.org/get 测试即可,代码实现如下:

import requests
from urllib.parse import quote
import re

lua = '''
function main(splash, args)
 local treat = require("treat")
 local response = splash:http_get("http://httpbin.org/get")
 return treat.as_string(response.body)
end
'''


url = 'http://splash:8050/execute?lua_source=' + quote(lua)
response = requests.get(url, auth=('admin', 'admin'))
ip = re.search('(\d+\.\d+\.\d+\.\d+)', response.text).group(1)
print(ip)

这里的 URL 中的 splash 请自行替换成自己的 Nginx 服务器 IP,在这里我修改了 Hosts 添加了 splash 别名。

多次运行代码之后可以发现每次请求的 IP 都会变化:

如第一次的结果:

41.159.27.223

第二次的结果:

41.159.27.9

这就说明负载均衡已经成功实现了。

5. 结语

本节我们成功实现了负载均衡的配置,配置了负载均衡之后可以多个 Splash 服务共同合作,减轻单个服务的负载,还是比较有用的。

Python3网络爬虫精华实战视频教程,大数据时代必备技能,重磅推荐!

点击文章末尾阅读原文即可购买学习

福利:文末扫码立刻关注公众号,“Python爱好者社区”,开始学习Python课程:

关注后在公众号内回复“课程”即可获取:

1.崔老师爬虫实战案例免费学习视频。

2.丘老师数据科学入门指导免费学习视频。

3.陈老师数据分析报告制作免费学习视频。

4.玩转大数据分析!Spark2.X+Python 精华实战课程免费学习视频。

5.丘老师Python网络爬虫实战免费学习视频。


Python爱好者社区


为大家提供与Python相关的最新技术和资讯。

长按指纹 > 识别图中二维码 > 添加关注

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存